Paradoja calidad-utilidad: alta recompensa daña razonamiento en modelos pequeños Descubre por qué los datos de alta recompensa dañan el razonamiento matemático en modelos pequeños y cómo la alineación de estilo mejora la destilación. 2026-06-16 · 1 min